1. Vá ao Repositório de Dados Eleitorais do TSE. Na página “Resultados” e no ano 2012, faça o download do arquivo “Votação nominal por município e zona” e descompacte-o.
Arquivo utilizado neste relatório: 2012 - Votação nominal por município e zona (formato ZIP)
Dados obtidos em: 20/03/2020.
2. Abre o arquivo para São Paulo (votacao_candidato_munzona_2012_SP.txt) em R com os nomes de colunas e o encoding corretos de acordo com a seção relevante de leaime.pdf.
Encoding: Latin-1
Os nomes das variáveis foram obtidos páginas 12 e 13 do arquivo LEIAME.pdf.
As variáveis disponíveis na base são: data_geracao, hora_geracao, ano_eleicao, num_turno, descricao_eleicao, sigla_uf, sigla_ue, codigo_municipio, nome_municipio, numero_zona, codigo_cargo, numero_cand, sq_candidato, nome_candidato, nome_urna_candidato, descricao_cargo, cod_sit_cand_superior, desc_sit_cand_superior, codigo_sit_candidato, desc_sit_candidato, codigo_sit_cand_tot, desc_sit_cand_tot, numero_partido, sigla_partido, nome_partido, sequencial_legenda, nome_coligacao, composicao_legenda, total_votos.
3. Lendo o leaime.pdf e observando as variáveis no banco de dados, o que representa uma observação (uma linha)? Ou seja, qual a unidade de análise aqui?
4. Leia até o final as instruções e identifique quais variáveis serão necessárias para o resto do exercício. Tire do seu banco de dados as variáveis desnecesárias.
7. Renomeie a variável com nome pouco claro DESC_SIT_CAND_TOT para RESTULADO
5. Selecione apenas as linhas que contém resultados eleitorais para o primeiro turno da eleição do prefeito(a).
6. Note que candidatos podem aparecer mais de uma vez na tabela em Q4 (porque existem múltiplas zonas em cada município). Usando identificadores únicos, identifique os candidatos distintos para o primeiro turno do prefeito. Explique no seu relatório quantos candidatos concorrem para prefeito no primeiro turno em 2012.
8. Filtrar os dados para os candidatos que se candidataram com Nome de Urna ígual ao seu Nome completo, e identifique os candidatos únicos de novo. No seu relatório, explique qual percentagem de todos os candidatos para prefeito no primeiro turno isso representa.
9. Quantos dos candidatos identificados em Q8 foram eleitos no primeiro turno?
10. Voltando para os dados de todos os candidatos no primeiro turno, vamos focar a nossa análise no município de São Paulo (código do TSE 71072). Ordene os dados por número de votos e identifique qual candidato recebeu o maior número de votos em qualquer zona da cidade.
11. Usando a sua própria classificação, crie uma nova variável que descreve a ideologia de cada partido no banco de dados do município de São Paulo nas três categorias ‘Esquerda’, ‘Direita’ e ‘Outro’.
12. Crie uma variável que indica se o candidato no município de São Paulo recebeu mais de 10.000 votos na zona.
13. Voltando para os dados orginais, filtrar para os dados dos vereadores. Agora, imagine que não temos os dados do partido de cada candidato e queremos recuperar do NUMERO_CAND, em que os primeiros dois digitos sempre refletem o número do partido do candidato. Divida a coluna NUMERO_CAND em duas para criar uma coluna de NUM_PARTIDO e outra de NUM_CAND_RESTANTE.
14. Agora, unifique as colunas NUM_PARTIDO e NUM_CAND_RESTANTE criado em Q9. O resultado deve ser ígual à coluna original NUMERO_CAND.
15. Limpe o seu script e Knit para um documento de HTML, por exemplo adicionando comentários, verificando que as respostas fazem sentidos, inserindo in-line código, tirando o código, warnings e mensagens do documento final, e formatando as tabelas melhores com df_print: paged no cabeçalho.